能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了
能上生产才是硬道理!Coding Agent 评测,终于开始关注过程了今天是一期硬核的话题讨论: Coding Agent 评测。 AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的
今天是一期硬核的话题讨论: Coding Agent 评测。 AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的
我们对 Coding Agent 的评测,可能搞错了方向。 一个反复出现,但常常被忽略的现象是:用户对 Agent 的不满,往往不是因为它「做不到」,而是因为它「做得不好」。 「做得不好」集中表现在:
随着AI大模型研发在架构、记忆、存储等等领域的深水区创新,OCR重新成为了技术专项。DeepSeek在研究、智谱在研究、阿里千问和腾讯混元也都在研究……还得是吴恩达老师,火速来了新课程,帮你速通OCR。
这是一个拥有23.7k star的Skills开源项目。支持一键部署在Claude code、Codex以及最近非常火的Opencode。
在 Claude 推出 Cowork 功能后,一个明显的信号 —— Agent 不仅仅是辅助工具,而是一种可以被设计、被组织、被反复调用的协作单元。
1 月 15 日上午,千问又前进了一大步,已经准备让智能体全面接管我们的日常生活了。千问 App 上线了全新 AI Agent 能力「任务助理」,同时全面打通阿里生态,一次开启了 400 多项新功能,邀请测试与灰度上线已经同步开启,全都是免费可用的。
近日,由阿里钉钉最年轻的副总裁王铭创立的攀峰智能(K2 Lab)宣布完成数千万元的种子轮融资,由云时资本独家投资,心流资本FlowCapital担任长期财务顾问。本轮融资资金将主要用于产品和AI能力打造、用户增长和AI Native团队的加速构建,快速推进全球首个面向超级个体的内容电商Agent基建。
随着越来越多的零售商开始借助 AI 工具来吸引消费者,并将 AI 引入业务的关键环节,Google 希望确保自己站在这场变革的中心。
上个月我和黄叔在视频号连麦,顺手注册了这个公众号。说实话,当时心里没底,也就是抱着试一试的心态。
如果你在做 AI Agent 开发,大概率已经发现一件事: Agent 几乎是传统软件测试方法的反例。